本章将学习RFM客户分层模型,通过跨国电商零售数据进行客户价值分析:
RFM模型通过三个维度衡量客户价值:
| 维度 | 英文 | 含义 |
|---|---|---|
| R | Recency | 最近一次消费距今的时间 |
| F | Frequency | 一定时期内的消费次数 |
| M | Monetary | 一定时期内的消费总金额 |
每个维度按高/低划分,组合形成 \(2^3 = 8\) 种客户类型。
本案例的核心步骤:
pandas、numpy、matplotlib 等常用库# 注:skrfm.xlsx 数据文件本地没有,但平台已经内置
# ⚠️ 平台原始代码 - 请原样输入至教学平台(注释除外),平台才会判定答案正确
import pandas as pd # 导入Pandas数据分析库
import numpy as np # 导入NumPy数值计算库
import matplotlib.pyplot as plt # 导入Matplotlib绑图库
import warnings # 导入warnings模块用于控制警告输出
warnings.filterwarnings('ignore') # 忽略报错(警告)
#加载数据
rfm = pd.read_excel('skrfm.xlsx')
rfm['RFM'] = rfm['RFM'].str.strip() # 去除空格
def trans(x): # 定义函数trans
if x == '高高高': # 条件判断:x == '高高高'
return '重要客户' # 返回计算结果
elif x == '高低高': # 否则判断:x == '高低高'
return '低购买频率客户' # 返回计算结果
elif x == '低高高': # 否则判断:x == '低高高'
return '长期未消费客户' # 返回计算结果
elif x == '低低高': # 否则判断:x == '低低高'
return '长期未消费低购买频率客户' # 返回计算结果
elif x == '高高低': # 否则判断:x == '高高低'
return '低消费客户' # 返回计算结果
elif x == '高低低': # 否则判断:x == '高低低'
return '低购买频率低消费客户' # 返回计算结果
elif x == '低高低': # 否则判断:x == '低高低'
return '长期未消费低消费客户' # 返回计算结果
else: # 不满足以上条件时
return '其他待发展客户' # 返回计算结果
rfm['用户等级'] = rfm['RFM'].apply(trans) # 对数据应用自定义函数
print(rfm) # 输出变量rfm的值
rfm['用户等级'].value_counts() # 统计用户等级列各取值的频率分布
plt.rcParams['font.sans-serif'] = ['SimHei'] # 使用黑体或其他支持中文的字体
plt.rcParams['axes.unicode_minus'] = False # 解决负号'-'显示为方块的问题
# 创建柱状图
plt.figure(figsize=(12, 6))
# 绑制柱状图
bars = plt.bar(rfm['用户等级'].value_counts().index, rfm['用户等级'].value_counts().values, color='blue',alpha=0.4)
# 添加标题和标签
plt.title('各等级类型用户数', fontsize=16)
plt.xlabel('用户等级类型', fontsize=12) # 设置X轴标签
plt.ylabel('用户数', fontsize=12) # 设置Y轴标签
plt.xticks(rotation=45, ha='right') # 旋转x轴标签以便更好地显示
# 在柱子上方显示数值
for bar in bars:
height = bar.get_height() # 获取当前柱子的高度值(用于数据标注)
plt.text(bar.get_x() + bar.get_width() / 2., height, # 添加文本标注
f'{height:,}', # 格式化标注文本(千分位分隔)
ha='center', va='bottom', fontsize=9) # 设置标注文本的水平和垂直对齐方式
# 调整布局防止标签被截断
plt.tight_layout()
# 显示图形
plt.savefig("7.png")
#绘制饼图
user_levels = rfm['用户等级'].value_counts()
labels = user_levels.index # 用户等级的类别
values = user_levels.values # 每个类别的数量
# 创建饼图
plt.figure(figsize=(10, 6)) # 设置画布大小
# 绑制饼图
plt.pie(values, labels=labels, autopct='%1.1f%%', startangle=90, textprops={'fontsize': 12, 'color': 'white'})
# 添加标题和图例
plt.title('用户等级类型占比', fontsize=16)
plt.legend(labels, title="用户等级", loc="best",bbox_to_anchor=(1, 0.5)) # 图例位置自动调整为最佳位置
# 显示图表
plt.savefig("8.png")数据加载与清洗:
trans()核心思路:根据RFM组合值(如’高高高’)映射为客户等级名称。
if x == '高高高' → 返回 '重要客户'elif x == '高低高' → 返回 '低购买频率客户'elif x == '低高高' → 返回 '长期未消费客户'应用函数:
apply() 对每一行RFM值调用 trans 函数,自动生成新列。
# 注:该代码块依赖的数据来自上方平台任务代码块,因其未执行,本块也无法执行
# ==================== 定义客户分类函数 ====================
def classify_customer(rfm_value):
"""根据RFM值分类客户,返回客户等级"""
mapping = {
'高高高': '重要客户', # R、F、M三个维度都高,是最有价值的客户
'高低高': '低购买频率客户', # 最近消费、金额高,但频率低,有提升空间
'低高高': '长期未消费客户', # 频率高、金额高,但很久没消费,需要召回
'低低高': '长期未消费低购买频率客户', # 金额高但频率低且很久没消费
'高高低': '低消费客户', # 最近消费、频率高但金额低,适合培养
'高低低': '低购买频率低消费客户', # 最近消费但频率和金额都低
'低高低': '长期未消费低消费客户' # 很久没消费且金额低,需要激活或放弃
}
return mapping.get(rfm_value, '其他待发展客户') # 如果RFM值不在映射表中,归为"其他待发展客户"
# ==================== 应用分类函数 ====================
rfm['用户等级'] = rfm['RFM'].apply(classify_customer)
# 对每一行RFM值应用classify_customer函数,生成用户等级标签
# apply()是Pandas中高效处理行/列数据的方法
print('用户等级分布:') # 输出标题
print(rfm['用户等级'].value_counts()) # 统计每个等级的用户数量,了解客户结构| 对比维度 | if-elif 写法 |
字典映射写法 |
|---|---|---|
| 代码量 | 多个 if/elif 分支 |
一个字典 + get() |
| 可读性 | 较冗长 | 简洁直观 |
| 可维护性 | 新增类型需加分支 | 新增类型只需加键值对 |
| 执行效率 | 逐个判断,O(n) | 哈希查找,O(1) |
| 推荐场景 | 复杂条件判断 | 简单值映射 |
结论:对于RFM这类「值→标签」的简单映射,字典写法更优。
# 注:该代码块依赖的数据来自上方平台任务代码块,因其未执行,本块也无法执行
# ==================== 设置中文字体支持 ====================
plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置中文字体为黑体
plt.rcParams['axes.unicode_minus'] = False # 解决负号显示问题
# ==================== 统计各等级用户数量 ====================
user_counts = rfm['用户等级'].value_counts() # 统计每个用户等级的出现次数
# ==================== 创建柱状图 ====================
plt.figure(figsize=(12, 6)) # 创建12x6英寸的画布
bars = plt.bar(
user_counts.index, # x轴为用户等级
user_counts.values, # y轴为用户数量
color='steelblue', # 设置柱状图颜色为钢蓝色
alpha=0.6 # 设置透明度为0.6,使图表更加柔和
)
# ==================== 添加数值标签 ====================
for bar in bars: # 遍历每个柱子
height = bar.get_height() # 获取柱子的高度(即用户数量)
plt.text(
bar.get_x() + bar.get_width() / 2., # x坐标为柱子中心
height, # y坐标为柱子顶部
f'{int(height):,}', # 显示数值,使用千位分隔符
ha='center', # 水平居中对齐
va='bottom', # 垂直底部对齐
fontsize=10 # 字体大小为10
)
plt.title('各等级类型用户数', fontsize=16) # 设置图表标题
plt.xlabel('用户等级类型', fontsize=12) # 设置x轴标签
plt.ylabel('用户数', fontsize=12) # 设置y轴标签
plt.xticks(rotation=45, ha='right') # x轴标签旋转45度,右对齐,避免重叠
plt.grid(axis='y', alpha=0.3) # 显示y轴网格线,透明度0.3
plt.tight_layout() # 自动调整布局
plt.show() # 显示图表关键技巧:
value_counts() 统计各等级出现频次,自动降序排列plt.bar() 的 alpha=0.6 控制透明度,使视觉更柔和plt.xticks(rotation=45) 旋转标签防止重叠plt.tight_layout() 自动调整边距防止截断# 注:该代码块依赖的数据来自上方平台任务代码块,因其未执行,本块也无法执行
# ==================== 准备饼图数据 ====================
user_levels = rfm['用户等级'].value_counts() # 统计各等级用户数
labels = user_levels.index # 饼图的标签(用户等级)
values = user_levels.values # 饼图的数值(用户数量)
# ==================== 创建饼图 ====================
plt.figure(figsize=(10, 6)) # 创建10x6英寸的画布
plt.pie(
values, # 饼图的数值
labels=labels, # 饼图的标签
autopct='%1.1f%%', # 显示百分比,保留1位小数
startangle=90, # 从90度(正上方)开始绘制
textprops={'fontsize': 11} # 设置文本字体大小为11
)
plt.title('用户等级类型占比', fontsize=16) # 设置图表标题
plt.legend(
labels, # 图例标签
title='用户等级', # 图例标题
loc='best', # 自动选择最佳位置
bbox_to_anchor=(1, 0.5) # 将图例放置在图表右侧
)
plt.tight_layout() # 自动调整布局
plt.show() # 显示图表关键技巧:
autopct='%1.1f%%' 自动计算并显示百分比(保留1位小数)startangle=90 让第一个扇区从正上方开始,视觉更直观bbox_to_anchor=(1, 0.5) 将图例移至图表右侧,避免遮挡根据RFM模型,客户群体呈现明显的分层特征:
| 客户类型 | RFM特征 | 业务价值 |
|---|---|---|
| 重要客户 | R高/F高/M高 | 核心利润来源 |
| 低频客户 | R高/F低/M高 | 有提升复购空间 |
| 沉睡客户 | R低/F高/M高 | 曾经活跃,需召回 |
| 低价值客户 | 多维度为低 | 需培育或降低成本 |
核心知识点回顾:
if-elif 更简洁高效的分类方式apply() 函数:Pandas中对列/行批量应用自定义函数的利器[商业大数据分析与应用]